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基于 自然 最 近邻 相似 图 的 谱 聚 类 = 
刘 友 超 ， 张 眶 烽 


(江南 大 学 物 联网 工程 学 院 , 江苏 无 锡 214122) 


dE 要 : 谱 聚 类 是 基于 谱 图 划分 理论 的 一 种 聚 类 算法 ， 由 于 其 对 非 凸 数据 集 具 有 优越 的 性 能 而 广 受 欢迎 ， 但 是 传统 谱 
聚 类 算法 经 常 在 处 理 一 些 结构 复杂 的 数据 集 时 效果 不 其 理想 ， 并 且 其 相似 度 和 矩阵 构造 时 参数 的 选取 往往 需要 依靠 多 次 
实验 及 个 人 经 验 。 在 这 种 情况 下 ,提出 一 种 基于 自然 最 近邻 相似 图 的 谱 聚 类 (NSG-SC) 算法 。 自 然 最 近邻 是 一 种 新 颖 
的 最 近邻 概念 ， 可 以 有 效 地 避免 K 最 近邻 以 及 8s- 最 近邻 方法 需要 人 为 设置 参数 的 缺点 。 该 算法 构造 相似 度 和 矩阵 时 依靠 
数据 集 自身 的 特性 进行 搜索 ， 避 免 了 参数 选取 不 当 以 及 离散 点 所 带 来 的 影响 ， 更 加 真实 地 反映 了 数据 集 的 结构 关系 。 
实验 结果 表明 ， 提 出 的 NSG-SC 算法 具有 可 行 性 和 有 效 性 。 
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Spectral clustering based on natural nearest neighbor similarity graph 


edd Liu Youchao, Zhang Xihuang 
(School of Internet of Things Engineering, Jiangnan University, Wuxi Jiangsu 214122, China) 


Abstract: The spectral clustering is a clustering algorithm based on the theory of spectral partitioning, and it is a popular method 
due to its superior performance in the data sets with non-convex clusters. But the traditional spectral clustering algorithm cannot 
often get correct results on complex data sets, and the choice of parameters of affinity matrix construction depends on multiple 


tests and personal experience. Based on the situation, this paper proposes a spectral clustering algorithm based on natural nearest 


E neighbor similarity graph (NSG-SC) . Natural nearest neighbor is a novel concept in terms of nearest neighbor, and it can avoid 
the disadvantages of K-nearest neighbor and e-nearest neighbor. They usually need set parameters artificially effectively. The 
algorithm constructs an affinity matrix depending on the characteristics of the data sets, and it avoids some adverse effects. It is 
that inappropriate choice of parameters and isolated points cause them. The algorithm can also reflect better characteristics of 
data. The results of experiments show that the proposed algorithm named NSG-SC has feasibility and effectiveness. 


Key words: spectral clustering; natural nearest neighbor; similarity graph; affinity matrix 


ROCK(A hierarchical clustering algorithm for categorical 


0 引证 attributes)!, CURE (clustering using representatives) [等 ; 基 
聚 类 分 析 是 机 器 学 习 领 域 的 一 个 重要 分 支 ， 是 人 们 认识 和 于 模型 的 聚 类 方法 以 及 基于 图 论 的 谱 聚 类 方法 。 

探索 数据 之 间 内 在 联系 的 有 效 手段 。 聚 类 分 析 作 为 一 种 重要 的 谱 聚 类 算法 建立 在 谱 图 理论 基础 之 上 ， 其 本 质 是 利用 谱 松 

无 监督 学 习 方法 ， 其 主要 思想 是 按照 特定 的 标准 ， 将 数据 划分 。 弛 方法 将 聚 类 问题 转换 为 图 的 最 优 划 分 问题 。 对 比 传统 聚 类 算 

到 多 个 互 不 相交 的 簇 ， 使 其 满足 簇 内 数据 具有 较 高 的 相似 性 ， 法 ， 其 能 够 在 任意 形状 的 样本 空间 上 完成 聚 类 ， 并 且 收 敛 于 全 

而 簇 间 数据 具有 较 低 的 相似 性 趾 。 局 最 优 解 。 因 此 谱 聚 类 也 被 广泛 应 用 于 生物 信息 学 外 ， 模 式 识 
到 目前 为 上 ， 已 经 有 许多 聚 类 的 算法 被 提出 。 比 较 典 型 的 别 n0， 图 像 分 割 0 及 文本 挖掘 0 等 领域 。 

A: 基于 划分 的 聚 类 方法 ， 如 K-means?) K-medoidsP/4$; 3& 比较 经 典 的 谱 聚 类 算法 有 Ng 等 人 提出 的 k 路 划分 的 NJW 

于 密度 的 聚 类 方法 , 如 DBSCAN (density-based spatial clustering 谱 聚 类 算法 0 以 及 Zelnik-Manor 提出 的 自 适应 谱 聚 类 算法 09 

of applications with noise) ^l, OPTICS (ordering points to identify 等 。 目 前 ， 对 于 谱 聚 类 的 研究 主要 集中 在 相似 度 和 矩阵 构造 、 特 


拉 普 拉 斯 矩阵 选取 和 海 


lm 
x 


the clustering structure) 器 等 ， 基 于 网 格 的 聚 类 方法 ， 如 STING — 征 向 量 选 取 、 自 动 确定 聚 类 数目 


Cstatistical information grid) 铅 等 ， 基 于 层次 的 聚 类 方法 ， 如 据 运 用 等 方面 (151。 
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IAR, F: 基于 自然 最 近邻 相似 图 的 谱 聚 类 


究 方向 中 ， 相 似 度 矩阵 的 构造 是 


重 中 之 中 。 因为 其 直接 影响 到 特征 向 量 的 获取 ， 从 而 影响 到 最 


终 聚 类 的 结果 。 
停止 。2011 4 
INE 
KEREK 
区 域 中 该 线段 则 相应 


dax 


ER 


又 


* 


关 谱 聚 类 中 相似 度 矩 阵 构造 的 研究 一 直 没有 


是 出 了 一 种 密度 敏感 的 距离 度量 方法 


法 定义 了 一 个 可 调节 长 度 的 线段 ， 该 线段 能 适应 
。 在 高 密度 区 域 中 线段 缩短 ， 而 在 低 
地 拉 长 。 该 算法 能 处 理 多 尺度 聚 类 问 
题 ， 对 参数 选择 相对 不 敏感 ， 但 也 存在 着 聚 类 效果 不 稳定 ， 
问题 。2012 4E, Li 等 人 使 用 邻近 传播 


实数 据 集 上 的 效果 欠 佳 等 


原则 提出 了 一 种 新 的 相似 度 揣 


也 是 其 与 K 最 近邻 和 s- 最 近邻 最 大 的 区 别 。 
会 友谊 关系 的 启发 ， 可 以 在 不 给 定 参数 的 情况 下 ， 根 和 
自身 的 属性 特点 ， 有 效 地 确定 数据 集中 的 邻 域 ， 为 每 个 数据 点 
动态 地 选择 数量 不 同 的 最 近邻 点 。 
然 最 近邻 的 基本 思想 是 根据 密度 划分 ， 密 度 较 大 区 域 的 
数据 点 自然 就 拥有 较 多 的 近邻 点 ， 相 对 地 ， 密 度 较 小 
昌 点 拥有 的 近邻 点 就 较 少 。 而 数据 集中 相对 离 群 的 数 ] 
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E 阵 构建 方法 53， 该 相似 度 和 矩阵 能 


增加 同一 簇 中 点 对 的 相似 度 ， 从 而 更 好 地 检测 数据 结构 。2013 


年 ,Blekas 等 人 提出 了 


其 于 牛顿 运动 方程 的 谱 聚 类 算法 03。 


他 们 建 


里 方法 
年 ，Inkaya 等 
构建 算法 
相似 A 


T AARRE E AR E AEH Y AAE 
去 获得 有 价值 的 相似 局 
是 出 了 一 个 基于 密度 和 连通 性 的 自 适 应 相似 图 
去 可 以 对 数据 集 构建 相似 图 ， 之 后 再 由 


信息 ， 丰 富 了 相似 度 窍 阵 。2015 


此 得 到 了 一 种 新 的 谱 聚 类 算法 Pol。 


该 算法 有 着 能 找到 
及 表现 
存在 混合 聚 iioi 
一 种 新 型 的 最 近邻 概念 ， 属 于 无 尺度 最 近 


了 任意 形状 和 可 变 密度 的 艇 的 局 部 特征 以 
但 是 也 存在 着 对 噪声 点 的 处 理 能 力 不 强 和 


邻 方法 
免 K 最 近 
借鉴 了 
和 矩阵 时 所 
近邻 搜 


1 


1.1 


esie 
模式 识 另 


Stenvens 提 


4 邻近 关系 不 是 很 精确 等 问题 。 


邻 域 中 并 且 点 


有 有 几 个 或 完全 没有 近邻 点 。 正 因为 噪声 点 和 异常 点 没有 近 储 
所 以 正常 点 也 不 会 把 它们 当成 近邻 点 
定义 1 了 邻 域 。 定 义 公 式 如 下 : 


KNN.(x) = JUfindKNN Qu, n] 


n=l 


其 中 : findKNN (xi,n) 表示 KNN 搜索 函数 , CRE x 的 第 
近邻 ， KNN,(xi) 表示 原始 数据 集 x 的 一 个 子 集 。 
定义 2 自然 最 近邻 。 基 于 7 邻 域 ， 如 果 点 X 在 点 
(y 也 在 点 X 的 x 邻 域 中 ， 则 称 x ly 互 为 自然 


近邻 ， 具 体 定 义 公 式 如 下 : 
x € NN(xi) 
€» (xi e KNN: (x)) ^ Qj € KNN: (xi)) 


区 域 的 数 
EAR 


En 


该 方法 受到 人 类 社 
cs f 


pau 


Zt 


邻 点 ， 


(1) 


B nti 


y kir 


Q) 


EE 稳定 搜索 状态 。 当 且 仅 当 满足 如 下 条 件 时 ， 自 然 


ea 
邻 方法 需要 人 为 设置 参数 的 缺点 。 本 文 
， 用 以 代 蔡 传统 谱 聚 类 算法 构建 相似 度 


其 中 :7 是 搜索 轮 数 ， 


近邻 算法 达到 稳定 搜索 状态 : 
(Vxi)(3x)(r e N) ^ (xi x xj) 
> (xi e KNN.(x;))) ^ (x; e KNNr(xi)) 


ik. e 近邻 法 或 全 连接 法 。 利 用 自然 最 
TO 


de TELA A 
就 可 以 得 到 
clustering based on 
NSG-SC)。 实 验证 
秀 的 聚 类 效 


念 早 在 1951 年 就 已 经 被 提出 


最 后 再 结合 经 典 谱 聚 类 算法 的 步 又 ， 


然 最 近邻 相似 图 的 谱 聚 类 算法 Cspectral 
natural nearest neighbor similarity graph, (ij fk 


明 ， 本 文 所 提出 的 NSG-SC 算法 具有 更 加 优 


泛 应 用 于 人 工 智能 、 数 据 挖掘 及 


。 现 在 使 用 最 为 广泛 的 两 个 最 近邻 概念 均 
出 ， 分 别 是 K 最 近邻 及 s- 最 K 


最 近邻 的 基本 


思想 是 找 出 数据 


其 中 参数 需要 人 工 设 
集中 每 个 对 象 周 者 半径 


设 


近 
集中 每 个 对 象 周围 与 其 距离 
基 


Lo gs- 最 近邻 的 


最 短 的 K 个 对 象 ， 
思想 则 是 找 出 数据 


5 围 内 的 对 象 ， 其 中 参数 s 需要 人 工 


出 ,无 论 是 最 近邻 还 是 =- 最 近邻 ， 其 最 近邻 的 


搜索 都 非常 依赖 于 参数 的 设置 ， 而 不 是 根据 数据 集 自身 的 特性 
进行 


于 无 尺度 最 近 


自然 最 近邻 是 一 种 近 几 年 才 提出 的 新 型 最 近邻 概念 ， 其 属 
设 


邻 方法 的 范畴 ， 不 需要 进行 人 工 的 参数 


不 需要 提前 终止 搜索 。 


算法 1 自然 最 近邻 搜索 算法 


Input : the data set X 
r =l, flag =0, NaN _ Edge = Ø 
Vxie X, NaN _ Num(xi)=0 
while flag == 0 do 
for all xi e X do 
knni(xi) = findKNN (xi,r) 
KNN: (xi) = KNN: (xi) O (knni(xi)] 
if xi e KNN:(knn:(xi)) 
& &{knn:(xi), xi} NaN _ Edge then 
NaN _ Edge = NaN _ Edge O {xi,knn:(xi)} 
NaN  Num(xi = NaN _ Num(xi) +1 
NaN _ Num(knn:(xi)) 
=NaN _ Num(knn:(xi)) +1 
end if 
end for 
cnt = count (NaN _ Num(xi) == 0) 


rep = repeat (cnt) 
if all(NaN _ Num(xi)) + 0 || rep > Vr = rep then 
flag =1 
end if 
r=r+1 
end while 
A-2r-l 
Output: NaN _ Edge 


G) 


公式 (3) 则 代表 该 轮 搜索 是 稳定 的 ， 
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录用 定稿 
其 中 : NaN _ Edge 代表 的 是 连接 两 个 顶点 之 间 的 边 的 集合 。 把 


数据 集 中 每 个 数据 看 做 一 个 顶点 , 若 两 个 顶点 x; 入 之 间 插 
入 了 一 条 边 ， 则 将 该 边 放 入 NaN _ Edge RAH. RZ count 的 
作用 是 统计 NaN _ Num 集合 中 为 0 的 元 素 的 个 数 。 函 数 repeat 
是 为 了 统计 变量 enr 连续 出 现 的 重复 次 数 。 
1.2 NJW 谱 聚 类 

NIW 谱 聚 类 算法 是 Ng 等 人 提出 的 一 种 比较 经 典 的 多 路 划 
分 谱 聚 类 算法 031， 其 构建 相似 度 和 矩阵 采用 的 是 基于 高 斯 核 函数 
的 全 连接 法 ， 该 算法 的 基本 步骤 如 下 : 

输入 : 初始 数据 集 X= {xxn RRM k 

输出 : 聚 类 结果 C= {C1,C2,…,Cx} 

a) 构 建 相似 度 和 矩阵 4 ， 定 义 公 式 如 下 : 


EE 
Aij —4€ 2d if i+ j (4) 
0 otherwise 
其 中 。 为 缩放 参数 ， 需 要 手动 设置 。 
b) 计 算出 度 矩 阵 p 并 利用 p 和 4 计算 出 拉 普 拉 斯 矩阵 7 。 
其 中 度 矩 阵 站 定义 公式 如 下 : 


Aij if 1== j 
polan Vii G) 
0 otherwise 
拉 普 拉 斯 矩阵 定义 公式 如 下 
L= D" AD"? (6) 
计算 出 7 的 前 个 最 大 特征 向 量 {z, ss. sj， 然后 建立 


矩阵 z 并 将 其 标准 化 得 到 矩阵 了 。 其 中 7 定义 公式 如 下 : 
Z - [zz zie R”* (7) 
了 定义 公式 如 下 : 


Zi 
万 = 一 一 一 


IY z? (8) 


2 NSG-SC 算法 


23 算法 思想 

本 文 先 根据 算法 1 构建 数据 集 的 自然 最 近邻 关系 集合 ， 得 
到 集合 NaN _ Edge。 之 后 再 把 原 数据 集中 的 每 个 数据 点 看 做 一 
个 顶点 ， 得 到 集合 V 。 以 NaN _ Edge 作为 边 的 关系 集合 ，y E 
为 顶点 的 关系 集合 ， 由 此 可 以 构建 一 个 无 向 加 权 图 ， 命 名 为 
NSG (natural nearest neighbor similarity graph), 5E X" b: 


NSG - (V, NaN _ Edge) (9) 
NSG 由 许多 连通 子 图 组 成 , 其 中 每 个 连通 子 图 代表 一 个 洪 
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RE c, 和 c, 分 别 代 表 一 个 连通 子 图 。 

插入 操作 完成 之 后 更 新 连通 子 图 数量 g 和 相似 图 NSG 。 
重复 比较 g 和 7 ， 进 行 连通 子 图 合并 操作 直到 g JU p 相等 。 
NSG 如 图 1 所 示 。 其 中 红色 的 边 代 表 NsG 在 合并 子 图 之 前 便 


S 


存在 的 边 , 蓝 色 的 边 代 表 合 并 子 图 之 后 新 增加 的 边 。 
0.6 
0.56 
图 1 相似 图 NSG 
Fig.l Similarity graph NSG 
最 后 再 利用 高 斯 核 函 数 构建 相似 度 和 矩阵 4 ， 定 义 公式 如 下 : 
exp( di ) ifi, j) € NaN. Edge 
Am P (max (da: (i,h) e NaN. Edge]? id EUR 
0 otherwise 


(11) 
其 中 : max(da:(, 8) e NaN _ Edge] 表示 同一 连通 子 图 中 最 长 的 
边 。 
2.2 算法 描述 


输入 : ”初始 数据 集 X= Quooeox)o ARM k 
输出 。 聚 类 结果 C= {C1,C2,…, Cr} 


Stepl 根据 算法 1 得 到 关系 集合 NaN — Edge 

Step2 根据 定义 式 (9)， 构 建 无 向 加 权 图 NSG 

Step3 ”确定 NSG 的 各 个 连通 子 图 构成 及 连通 子 图 数量 g ， 
再 通过 连通 子 图 互相 合并 将 其 数量 缩减 至 4 个 

Stepá ”利用 式 (11) 构 建 相似 度 和 矩阵 A 

Steps ”依次 进行 1.2 节 中 NJW 谱 聚 类 算法 的 step2、step3、 
step4 得 到 最 终 聚 类 结果 C 
23 ”算法 时 间 复 杂 度 分 析 

设 待 聚 类 原始 数据 集 y 的 样本 数量 为 x ， 根 据 1 节 算 法 1 
的 步骤 描述 ， 在 自然 最 近邻 搜索 阶段 ， 算 法 的 时 间 复 杂 度 由 以 
下 几 个 主要 步骤 决定 : a) 创建 可 用 于 存储 数据 集 的 k-d 树 ， 此 
步 又 的 时 间 复 杂 度 为 O(nlogn) : bD 对 于 单独 一 轮 > 自然 最 近邻 
搜索 ， 其 时 间 复 杂 度 为 O(nlogn) 。 一 共 进行 了 入 轮 搜索 ， 所 以 
搜索 的 总 时 间 复 杂 度 为 O(XMnlogn) ,其 中 2< 和 <n。 一 般 为 6 


在 的 徐 ， 同 一 连通 子 图 中 的 任意 两 个 点 之 间 都 存在 着 一 条 或 多 
条 边 可 以 将 两 点 直接 或 间接 连通 。 确 定 NSG 连通 子 图 数量 g ， 
将 其 与 目标 聚 类 数 上 比较， 如果 g 大 于 大 ， 则 表示 存在 着 过 多 
独立 的 徐 。 因 此 ， 在 这 种 情况 下 新 插入 一 条 边 (i,v) 在 点 x 和 
yo HER (v v) 定义 如 下 : 

(vi vi) =arg min{di|vie Cp,vie Ca, p + q} 


(10) 


c 


或 7， 对 于 高 维 或 不 规则 的 数据 集 ，20< 和 <30 。 
根据 2.1 节 的 NSG-SC 算法 步骤 描述 ， 除 自然 最 近邻 搜索 
外 其 余 步 又 的 时 间 复 杂 度 由 以 下 几 个 主要 步骤 决定 : 1) 构建 相 
似 度 和 矩阵 ， 时 间 复 杂 度 为 002) ; 2) K-means 步 又， 时间 复杂 
度 为 O(nkt)， 其 中 1 为 迭代 次 数 ， 一 般 不 超过 300。 

综 上 分 析 ， 在 n 较 大 的 情况 下 ，NSG-SC 算法 的 时 间 复 杂 
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度 仍 为 oo2) ， 和 一 般 的 谱 聚 类 算法 时 间 复 杂 度 相同 。 
如 何 确定 目标 聚 类 数 天 
NSG-SC 算法 虽然 在 相似 图 构建 过 程 中 无 须 参数 ， 但 在 之 
后 的 步骤 中 还 是 需要 手动 设置 参数 上 的 值 。 确 定 目标 聚 类 数 k 
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聚 类 ， 这 表明 簇 间 较 高 的 相似 度 会 导致 这 些 算法 的 错误 判断 ; 

在 ThreeCircles 数据 集 上 ，STSC 算法 可 以 正确 聚 关 ，K-menas 
算法 和 NJW 算法 的 聚 类 则 完全 错误 。 通 过 实验 表明 ，NJW $E 
法 和 ST-SC 算法 构建 的 相似 度 矩 阵 在 簇 间 相似 度 较 高 的 情况 下 


c— 


其 实 是 大 多 数 聚 类 算法 都 存在 的 一 个 普 适 性 问题 ， 目 前 已 经 有 
各 式 各 样 或 多 或 少 成 功 的 方法 为 这 个 问题 提供 了 解决 思路 。 

最 常用 且 简 单 的 方法 是 可 视 化 数据 ， 之 后 直接 观察 出 聚 成 
几 类 比较 合适 ， 但 通常 情况 下 这 种 方法 并 不 奏效 。 在 基于 模型 
的 聚 类 中 ， 通 常 存 在 比较 有 效 的 标准 可 以 从 数据 中 选取 大 值 。 
这 个 标准 通常 基于 数据 的 对 数 似 然 性 ， 之 后 可 以 采取 频率 或 贝 
叶 斯 方法 来 处 理 叶 。 而 在 对 基础 模型 没有 或 很 少 假设 的 情况 下 ， 
则 一 般 使 用 各 种 不 同 的 指标 来 选取 k 值 。 常 见地 可 以 使 用 ad- 
hoc 度量 方法 如 簇 内 和 簇 间 相 似 性 比率 ， 过 度 信息 理论 标准 外] 
和 间隔 统计 量 等 。 


3 ”实验 与 分 析 


3.1 相关 算法 及 参数 设置 

本 文 算法 分 别 与 KK-means 算法 , NIW 谱 聚 类 算法 531 (以 下 
简称 NJW 算法 )，Self-Tuning 谱 聚 类 算法 (4 (以 下 简称 ST-SC 
算法 ) 和 文献 [20] 提 出 的 算法 (以 下 简称 DAN 算法 ) 进 行 比 较 。 
K-means 算法 的 参数 x 为 目标 聚 类 数 ， NJW 算法 的 参数 sigma 
为 缩放 参数 , 在 此 次 实验 中 选取 经 验 值 sigma-0.005, 参数 为 
目标 聚 类 数 ，STSC 算法 的 参数 K 为 构建 相似 度 矩 阵 时 选取 的 
每 个 点 的 最 近邻 个 点 ， 这 里 设置 为 作者 在 原文 中 建议 的 值 
K=7, 参数 4 为 目标 聚 类 数 , DAN 算法 的 参数 人 为 目标 聚 类 数 。 
本 文 提出 的 NSG-SC 算法 的 参数 大 为 目标 聚 类 数 。 
3.0 人工 数据 集 实验 及 分 析 

为 了 验证 NSG-SC 算法 的 有 效 性 ， 本 文 先 将 NSG-SC 算法 
与 K-means 算法 、NJW 算法 和 ST-SC 算法 在 图 2 所 示 的 四 个 


人 工会 成 数据 集 上 进行 实验 ,四 种 人 工 数据 集 分 别 是 ChainLink、 


Sticks, ThreeCircles 和 UnbalanceSpiral， 其 详细 信息 如 表 1 所 
示 。 分 别 对 这 四 种 人 工 数 据 集 进 行 实验 后 ， 实 验 的 最 终 聚 类 结 
果 如 图 2~5 所 示 。 每 张 图 左上 为 K-means 算法 ， 右 上 为 NJW 
算法 ， 左 下 为 ST-SC 算法 ， 右 下 为 NSG-SC 算法 。 

表 1 四 种 人 工 数据 集 


Table 1 Four type of artificial data sets 
数据 集 实例 数 维度 RH 
ChainLink 1000 3 2 
Sticks 512 2 4 
ThreeCircles 1801 2 3 
UnbalanceSpiral 567 2 3 


对 比分 析 可 知 ， 本 文 提 出 的 NSG-SC 算法 在 四 个 数据 集 | 
均 可 以 正确 聚 类 ; 在 ChainLink 数据 集 上 ，STSC 算法 可 以 了 
MRX, K-means 算法 和 NJW 算法 在 两 个 流 形 复 相互 靠近 的 地 
方 无 法 正确 聚 类 ; 在 Sticks 数据 集 和 UnbalanceSpiral 数据 集 上 ， 
K-means 算法 、NJW 算法 和 ST-SC 算法 均 出 现 不 同 程度 的 错误 


[T 


FH 


EE 


无 法 真实 地 反映 出 数据 集结 构 ， 从 而 导致 样本 错误 聚 类 。 而 
NSG-SC 算法 利用 自然 最 近邻 相似 图 构建 出 的 相似 度 矩 了 泗 ， 在 
数据 集 较 为 复杂 且 簇 间 相 似 度 较 高 的 情况 下 ， 仍 能 正确 地 反映 


出 数据 集 的 真实 结构 ， 从 而 得 到 正确 的 聚 类 结果 。 由 此 分 析 推 
断 NSG-SC 算法 在 处 理 复 杂 数 据 集 时 往往 能 获得 更 优秀 的 聚 类 
结果 。 


NJW(k2.sigma-0.005) 


(a)K-means 算法 (b)NJW 算法 


ST-SCK=2K=7) NSG-SC(k=2) 


(c)ST-SC 算法 (d)NSG-SC 算法 
中 2 ChainLink 数据 集 实验 结果 


Fig.2 Experiment results of ChainLink 
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(a)K-means 算法 (DJNJW 算法 


NSG-SC(k=4) 
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(c)ST-SC 算法 (d)NSG-SC 算法 


图 3 Sticks 数据 集 实验 结果 


Fig.3 Experiment results of Sticks 
3.8 评价 指标 
在 接 下 来 的 真实 数据 集 实 验 中 ， 将 分 别 采 用 ARP 
Cadjusted rand index) 和 AMIP?! (adjusted mutual information ) 
这 两 个 指标 来 评价 K-means 算法 、NJW 算法 、STSC 算法 、 
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DAN 算法 与 NSG-SC 算法 的 效果 。 值 越 大 意味 着 聚 类 效果 越 好 。 


-ee n —Án 3.4 真实 数据 集 实 验 及 分 析 
|] D | 为 了 验证 算法 在 真实 数据 集 上 的 效果 ， 判 断 算法 是 否 具有 
实际 意义 ， 分 别 采用 UCI 数据 库 中 的 Tis、Wine、Vehicle 和 
Landsat 共 四 个 数据 集 进行 实验 。 数 据 集 详细 信息 如 表 2 所 示 。 
表 2 四 种 UCI 数据 
Table Four type of UCI data 


(a)K-means 算法 NIW 算法 数据 集 实例 数 维度 类 别 
Te 一 一 Iris 150 4 3 
| | Wine 178 13 3 
Vehicle 846 18 4 
Landsat 2000 36 6 


经 过 真实 数据 集 的 实验 后 , ARI 指标 和 AMI 指标 的 评价 结 
果 如 表 3、4 所 示 。 


(c)ST-SC 算法 (d)NSG-SC 算法 表 3 各 算法 ARI 指标 对 比 
图 4 ThreeCircles 数据 集 实验 结果 Table3 ARIindex of algorithms comparison 
Fig.4 Experiment results of ThreeCircles KMEANS NJW STSC DAN NSGSC 
€ e —— —— ee m— Iris 0.7302 0.5638 0.8857 0.5609 0.9122 


Wine 0.3711 0.3963 0.7987 0.3885 0.8035 
Vehicle 0.0785 0.0254 0.1270 0.2765 0.3988 
Landsat 0.2975 0.5564 0.5231 0.7231 0.7105 


表 4 各 算法 AMI 指标 对 比 


Table4 AMI index of algorithms comparison 


(a)K-means 算法 NIW 算法 KMEANS NJW | STSC DAN NSGSC 
een | Iris 0.7484 0.5821 0.8623 0.5910 0.8968 
Wine 0.4226 0.4371 0.7593 0.3755 0.7544 

Vehicle 0.0923 0.0445 0.1555 0.2976 — 0.4135 

Landsat 0.3234 0.5897 0.6222 0.7960 0.8142 


3e 3 和 4 的 对 比分 析 可 知 ，Iris 数据 集 上 ST-SC 算法 和 
NSG-SC 算法 表现 较 好 , 具体 在 指标 上 NSG-SC 算法 略 高 于 ST- 


(OST-SC 算法 (DNSG-SC 算法 SC 算法 ，Wine 数据 集 上 ST-SC 算法 和 NSG-SC 算法 仍 表 现 较 
图 5 UnoalanceSpiral 数据 集 实验 结 好 ， 其 中 NSG-SC 算法 的 ARI 指标 高 于 ST-SC 算法 ，AMI 指 
Fig.5 Experiment results of UnbalanceSpriral 标 低 于 ST-SC 4E; Vehicle 数据 集 上 所 有 算法 表现 均 不 理想 ， 


RI Gondindex) 在 统计 学 中 ,特别 是 在 了 类 中 ， 表 示 的 是 。 但 NSG-SC 算法 的 指标 评价 还 是 显著 高 于 其 他 算法 ;Landsat 数 


两 个 簇 间 的 相似 性 度量 。 从 数学 的 角度 来 看 ， RI 指标 与 准确 性 据 集 上 DAN 算法 和 NSG-SC 算法 表现 较 好 ， 其 中 NSG-SC 算 


fX. RI 指标 的 取 值 范围 为 [0,1]。 而 ARI 指标 在 RI 指标 的 基 ”法 的 ARI 指标 低 于 DAN 算法 ，AMI 指标 高 于 DAN 算法 


mcd 
。 综 


础 上 进一步 实现 了 “在 聚 类 结果 随机 产生 的 情况 下， 指标 应 该 ”上 所 述 ，NSG-SC 算法 在 真实 数据 集 上 的 表现 依然 优越 ， 能 够 


接近 零 ”的 效果 。ARI 指标 取 值 范围 为 [1,1]， 值 越 大 意味 着 聚 ”真实 地 反映 出 数据 集 的 结构 关系 ， 从 而 得 到 更 好 的 聚 类 结果 。 


类 结果 与 真实 情况 越 吻 合 。 从 广义 的 角度 来 讲 ，ARI 指标 衡量 
的 是 两 个 数据 分 布 的 吻合 程度 。 4 ， 结束语 

MI(mutual information ) 是 信息 论 里 的 一 种 有 用 信息 度量 ， 本文 提出 了 一 种 基于 自然 最 近邻 相似 图 的 谱 附 类 算法 。 利 
它 可 以 看 成 是 一 个 随机 变量 中 包含 的 关于 另 一 个 随机 变量 的 信 。 用 自然 最 近邻 关系 无 须 设 定 参数 、 能 基于 数据 集 自身 特性 进行 
息 量 ， 或 者 说 是 一 个 随机 变量 由 于 已 知 另 一 个 随机 变量 而 减少 。 搜索 和 受 离散 点 影响 小 等 优点 ,精确 地 划分 出 每 个 样本 的 邻 域 ， 
的 不 确定 性 。AMI 指标 是 对 MI 指标 的 进一步 改进 ， 它 常用 于 。 构建 相似 图 ， 从 而 得 到 能 比 传统 谱 聚 类 算法 使 用 的 K 近邻 法 、 


RR, RWF ARI 指标 对 于 RI 指标 的 纠正 ， 并 且 与 信息 的 变 e 近邻 法 或 全 连接 法 更 为 真实 地 反映 样本 相似 性 关系 的 相似 
化 密切 相关 。AMI 指标 同 ARI 指标 一 样 , 取 值 范围 也 是 [-1,1]， 矩阵 ， 最 后 再 进行 谱 聚 类 。 在 人 工 数据 集 和 UC 真实 数据 集 上 


Kx 


的 实验 表明 NSG-SC 算法 在 处 理 一 些 结构 复杂 的 数据 集 时 ， 能 
更 好 地 反映 出 数据 集 的 结构 关系 , 从 而 得 到 更 优秀 的 聚 类 结果 。 

算法 还 有 提升 空间 ， 后 续 研 究 可 考虑 引入 模糊 近邻 关系 处 
理 混合 聚 类 或 加 入 成 对 约束 信息 优化 聚 类 效果 ， 还 可 考虑 与 启 
发 式 算法 结合 。 
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